文生视频大模型「新版」测评基准(方案)发布
排行榜地址:www.SuperCLUEai.com
# SuperCLUE-T2V 文生视频测评
注:具体的测评任务以正式发布的测评报告为准。
测评数据集涵盖了多种常见且实用的场景,旨在验证大模型在生成不同应用场景视频方面的能力,同时确保生成的视频在画质和内容上保持与文本的一致性和高质量。而测评具体使用的应用场景如下:
日常生活:考察模型或应用针对日常生活不同场景的视频生成和编辑能力。二维场景包括:人物、动物、建筑物和职场
影视:考察模型或应用针对电影领域应用场景的视频生成与编辑能力。二维场景包括:动作、科幻、历史和动漫
应用:考察模型或应用针对较实用领域的视频生成与编辑能力。二维场景包括:广告、宣传视频、发布会和游戏
中国文化场景:考察模型或应用针对中华文化素材的短视频生成与编辑能力。二维场景包括:传统节日、中华饮食、历史文学和非遗传承。
1. 主体外观质量
主体外观自然性:视频中一个或多个主体在每一帧(除非风格要求)不应出现奇怪或违反自然规律的画面,要保持自然
2. 背景质量
3. 视频流畅性
4. 运镜模糊性
背景的模糊度:视频执行运镜时背景的模糊度自然性应符合运镜速度和提示词的要求,如(除非提示词要求)运镜速度慢不应显示过于模糊的背景
1. 主体外观准确性
主体外观准确性(初始):视频初始呈现的一个或多个主体的外观形态特征必须对应提示词的描述
2. 背景画面准确性
背景画面准确性(初始):视频初始呈现的背景形态和画风应对应提示词的描述
3. 数量精准性
主体数量精准性:视频中主体的数量应与提示词所指定的数量精确匹配
背景物体数量精准性:视频中背景物体的数量应与提示词所指定的数量精确匹
4. 空间关系
主体空间精准性:视频中主体的位置应与提示词指定的位置相对应
5. 运镜准确性
运镜位置准确性:视频中镜头的开始位置与终点位置应对应提示词的要求
1. 单一主体动态准确性
动作准确性:主体执行的动作与提示词的匹配度
2. 多个主体动态准确性
动作准确性:主体执行的动作与提示词的匹配度
3. 主体交互准确性
交互准确性:主体与其他主体、物体或背景进行交互时与提示词的匹配度
4. 主体交互准确性
主体动作排序精准性:单个或多个主体依次执行一系列动作的顺序排序的准确性
背景改变排序精准性:背景单次或多次发生事件或改变的顺序排序的准确性
各对象运动连贯性:主体与背景执行任务时的流畅性与连贯性
1. 测评集构建
我们结合4大场景针对评估维度撰写生成视频的提示词(prompt),再根据模型对语言的需求,对提示词语言进行中英文的转换。由于国外模型都无法理解中文提示词,所以在测试国外模型时都将提示词翻译成英文,而国内模型则统一使用中文提示词。
2. 评分标准
Gemini-1.5-Pro 根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求,确保评分的一致性与公正性。
3.自动化评分
Gemini-1.5-Pro将根据视频质量、外观遵循能力与动态遵循能力进行自动化评分。
4.综合评分与反馈
最终,我们将三个一级维度的平均分计算出来,结合各模型在不同场景中的得分,最终分数将反映出该模型在每个场景的综合性能。结果将以统一的输出格式提供,包括每个单独任务的详细评分与总体评价。
评估示例
# 示例1
【应用场景】:日常生活—人物
【测评维度】:动态遵循能力—单一主体动态准确性
【文本转换】中文提示词-->翻译成英文-->提交给模型
【中文提示词】:视频中是一个男人正在吃美式快餐。一个留有黑色短发的男人,穿着白色的T恤,坐在餐厅的白色小圆桌前。男人的面前摆放着餐盘,餐盘里是一些炸鸡块和炸鸡翅,和一杯插有白色吸管的杯装饮料。男人一只手拿着一个双层芝士牛肉汉堡,吃了一大口汉堡。中景,固定镜头。表现出男人狼吞虎咽的样子。
【英文提示词】:Medium shot, fixed lens on a man with short black hair, wearing a white T-shirt, sits in a cozy restaurant. In front of him a small white round table holds a plate of nuggets and wings. A cup with a white straw sits beside it. He takes a double cheese beef burger in one hand to take a big bite, gobbling it up quickly.
【测评模型】:Runway gen-3 Alpha
【生成视频】:
超级模型评分:
----逐项打分开始----
我的思考与答案:这段视频基本完成了提示词所要求的内容。视频中的人物符合提示词中对人物外貌和衣着的描述,场景也设置在餐厅。人物吃汉堡的动作也基本符合“一大口”和“快速吞咽”的描述。
问题及改进的反馈意见:
视频中人物吃汉堡的动作略显夸张,不够自然流畅。桌子上的食物与提示词中“鸡块和鸡翅”的描述不符,看起来像薯条。
打分与评价开始:动作准确性:人物吃汉堡的动作与提示词的描述基本一致,但可以更贴近自然。得分:4分
动作自然性:吃汉堡的动作略显夸张,不够自然流畅,与真实生活中吃汉堡的动作略有差异。得分:3分
综合以上,AI助手的综合得分(平均分)为(4+3) / 2 = [[3.50]]
----逐项打分结束----# 示例2
【应用场景】:中国文化场景——历史文学
超级模型评分:
----逐项打分开始----
我的思考与答案:视频展现了一个古典园林的场景,其中有亭台、楼阁、小桥、流水、假山以及盛开的鲜花等元素。两位身着古装的人物在园中漫步,背景中有一座高塔。这基本符合提示词中对大观园场景以及人物活动的描述。问题及改进的反馈意见:
视频中亭台楼阁的建筑风格与《红楼梦》所描述的略有差异,大观楼的呈现也与原著有所出入。视频整体氛围虽然体现了古典园林的意境,但缺乏《红楼梦》特有的文化内涵和情感深度。打分与评价开始:
背景画面准确性(初始):视频初始展现了一个古典园林,包含亭台楼阁、小桥流水等元素,与提示词中描述的大观园场景基本相符。但建筑风格与《红楼梦》中的描述存在差异,细节刻画也略显不足。得分:4分
背景画面准确性(结尾):视频结尾的背景画面与初始画面基本一致,仍然展现了古典园林的场景,与提示词中的描述基本相符。但同样存在建筑风格与细节刻画上的不足。得分:4分
----逐项打分结束----
超级模型评分:
----逐项打分开始----
问题及改进的反馈意见:
视频中主持人的手部动作略显僵硬,与充满激情活力的设定不太相符。在镜头拉近的过程中,人物边缘的处理不够精细,出现了一些轻微的模糊和锯齿现象。打分与评价开始:
主体外观一致性:主持人整体形象在视频中保持一致,没有出现明显的变形、闪烁或其他异常,除了在镜头拉近时出现轻微模糊外,其他时候都比较清晰。得分:4分
主体外观自然性:主持人的动作略显僵硬,不够自然流畅,尤其是在手部动作方面。此外,人物边缘的处理不够精细,影响了整体的自然感。得分:3分
----逐项打分结束----
# 测评邀请
时间规划
测评流程
1.邮件申请
2.意向沟通
3.参测确认与协议流程
4.提供测评API接口或大模型